Будем искать оценку неизвестного вектора $b$ в виде аффинной функции от наблюдения, $\beta(y)=Ay+c$.

\begin{df}
Линейной оценкой, оптимальной в среднем квадратичном смысле (ЛООСК), неизвестного параметра $b$ по наблюдению $y$ называется оценка $\hat{\beta}(y)=\hat{A}y+\hat{c}$, доставляющая минимум функционалу
$$
\min\limits_{A,c}\E||b-Ay-c||^2=\E||b-\hat{A}y-\hat{c}||^2.
$$
\end{df}

Оценка так называется потому, что термин ''в среднеквадратичном смысле`` эквивалентен ''в норме $L^2$``: из определения видно, что ЛООСК можно интрепретировать как ортогональную проекцию $b$ на линейное замкнутое подпространство всех величин вида $Ay + c$ (линейных оценок) в норме $L^2$. Конечно, более грамотно было бы ее называть ''аффинной оценкой, оптимальной в среднеквадратичном смысле``, но мы пользуемся общепринятым термином.

Заметим, что в терминах предыдущего раздела мы находимся в информационных рамках 0)-2): нам известны наблюдения и сведения о распределениях наблюдений и неизвестного параметра. При этом, если учесть, что мы рассматриваем не все оценки, а только оценки определенного вида, то можно считать, что нам известна и  функция штрафа: в роли нее выступает норма $L^2$.

Приятной особенностью ЛООСК является то, что она находится аналитически. Для этого нам придется вспомнить о том, как ''дифференцировать по матрице``.

\subsubsection{Напоминание из курса методов оптимизации}
Пусть нам надо исследовать на экстремум функцию $f:\ X\to Y$, где $X,Y$ --- два каких-то нормированных пространства. Производной\footnote{Реже именуемой градиентом.} (по Фреше) функции $f$ в точке $x$ называется линейный ограниченный оператор $\Lambda_x$, что 
$$
f(x+h) - f(x) = \Lambda_xh + o(\norm{h}_X),\ \forall\ h\in X.
$$
Иными словами, производная --- это линейная часть приращения функции в точке. При некоторых дополнительных предположениях, справедлива теорема Ферма: в точке экстремума производная обнуляется (становится тождественно нулевым оператором\footnote{Эта теорема, распространненая на задачу с ограничениями, доказывалась в курсе методов оптимизации.}).

Пусть теперь $Y = \bbr$. Тогда проивзодная будет линейным ограниченным оператором из $X$ в $\bbr$. Множество всех таких операторов называется сопряженным к $X$ пространством $X^*$. Если пространство $X$ ''хорошее`` (например, гильбертово), то $X^*$ можно отождествить с самим $X$ неким разумным способом (в случае гильбертовых пространств это называется отождествлением по Риссу: для оператора $A\in X^*$ существует и притом единственный элемент $a\in X$, такой что $Ah = \scalar{a}{h}\ \forall h\in X$. Соотвествующая теорема доказывается в курсе функционального анализа).

Если $X = \bbr^n$ (со стандартным скалярным произведением $\scalar{x}{y}= \sum_{i=1}^n x_iy_i$ ), то производная по Фреше есть знакомый нам с первого курса градиент $f$,
$$
\nabla_x f = \left[ \dfrac{\partial f}{\partial x_1},\ \dfrac{\partial f}{\partial x_2}, \ldots, \dfrac{\partial f}{\partial x_n}\right]^T \in\bbr^n.
$$

Если $X = \bbr^{n\times n}$, то в нем можно рассмотреть скалярное произведение\footnote{Порождающее в $\bbr^{n\times n}$ не привычную спектральную норму, а норму Фробениуса.} $\scalar{A}{B} = \mathrm{tr } B^TA$. В таком случае, производная будет иметь вид
$$
\dfrac{\partial f}{\partial A} = 
\begin{bmatrix}
       \dfrac{\partial f}{\partial a_{11}} & \dfrac{\partial f}{\partial a_{12}} & \ldots & \dfrac{\partial f}{\partial a_{1n}}\\ 
       \dfrac{\partial f}{\partial a_{21}} & \dfrac{\partial f}{\partial a_{22}} & \ldots & \dfrac{\partial f}{\partial a_{2n}}\\
       \ldots & \ldots & \ldots & \ldots \\
       \dfrac{\partial f}{\partial a_{n1}} & \dfrac{\partial f}{\partial a_{n2}} & \ldots & \dfrac{\partial f}{\partial a_{nn}}\\
 \end{bmatrix}\in\bbr^{n\times n}.
$$  

Приведем несколько простых свойств дифференцирования ''по матрице`` и ''по вектору``. Пусть $x,b\in\bbr^n,\ A,B\in\bbr^{n\times n}$.
\begin{enumerate}
\item $\nabla_x(\scalar{x}{Ax} + \scalar{b}{x}) = (A+A^T)x+b$ 
\item $\nabla_xf(Ax) = A^T\nabla f(Ax)$
\item $\nabla_x^2f(Ax) = A^T\nabla^2 f(Ax)A$
\item $\nabla_A(\tr(AB)) = B^T$
\item $\nabla_{A^T}f(A) = (\nabla_A f(A))^T$
\item $\nabla_A\tr(ABA^TC) = CAB+C^TAB^T$
\end{enumerate}
Эти свойства легко доказываются\footnote{См., например, статью \textit{J. Duchi. Properties of the Trace and Matrix Derivatives} (легко гуглится). Правда, одно из свойств там сформулировано и доказано ошибочно.}.

\subsubsection{Формула для рассчета ЛООСК}
\begin{theorem} \label{8-t1}
 Пусть заданы случайные векторы $b\in \real^k$ и $y\in \real^m$. Пусть $R_y$~--- обратима (в гауссовском случае достаточно квазиобратимости), тогда ЛООСК имеет вид
$$
\hat{\beta}(y)=m_b+R_{by}R_y^{-1}(y-m_y),
$$
дисперсия ошибки оценки имеет вид
$$
\E\left((b-\hat{\beta}(y))(b-\hat{\beta}(y))'\right)=R_b-R_{by}R_y^{-1}R_{yb}.$$
\end{theorem}
\begin{proof}
Введем функцию $f(A,c)=\E||b-Ay-c||^2$. Воспользуемся необходимым условием экстремума и приравняем к нулю ее градиент:
$$
0=\left.\frac{\partial f}{\partial A}\right|_{A=\hat{A},\;c=\hat{c}}=2\E y(\hat{c}+\hat{A}y-b),\ 
0=\left.\frac{\partial f}{\partial c}\right|_{A=\hat{A},\;c=\hat{c}}=2\E(\hat{c}+\hat{A}y-b).
$$
Из второго выражения получаем: $\hat{c}=m_b-Am_y.$  Из первого выражения и выражения для $\hat{c}$ получаем: $$m_y\E\left(\hat{A}(y-m_y)-(b-m_b)\right)=0.$$
Вычитая из него выражение $\E
y\left(\hat{A}(y-m_y)-(b-m_b)\right)'=0$, получим:
$$\E\left(y-m_y\right)\left(\hat{A}(y-m_y)-(b-m_b)\right)'=0,$$
$$R_y\hat{A}-R_{yb}=0,$$ $$\hat{A}=R_{by}R_y^{-1}.$$
Подставляя
выражения для $\hat{A}$ $\hat{c}$, получаем требуемую оценку
$$\hat{\beta}(y)=\hat{A}y+\hat{c}=m_b+R_{by}R_y^{-1}(y-m_y).$$
Дисперсию ошибки оценки выводится аналогично (покажите!).
\end{proof}
\begin{note}
Заметим, что в гауссовском случае были получены такие же результаты, см. утверждения главы \ref{gauss_multidimentional}. Это естественно: в этом случае условное математическое ожидание линейно по $y$, следовательно, оно лежит в пространстве линейных функций от $y$. 
\end{note}

\subsubsection{Свойства ЛООСК}
Опишем теперь некоторые замечательные свойства ЛООСК.

\begin{imp}
Построенная оценка обладает следующими свойствами:
\begin{enumerate}
	\item	$\E\hat{\beta}(y)=m_b\quad$ (несмещенность),
	\item	$\E\hat{\beta}(y)\left(b-\hat{\beta}(y)\right)=0\quad$ (ошибка не коррелирована с оценкой).
\end{enumerate}
\end{imp}

%Справедливость этих свойств также предлагается проверить самостоятельно.
%\textbf{Следствие 2}\\
%пусть $b\in R^k,\;y\in R^m$~-- заданы, \\ $d\in R^p,\; d=Cb$,
%$C$~-- известная матрица.\\ Тогда, ЛООСК для $d$ будет выглядеть
%следующим образом:
%$$\begin{array}{l}\hat{\delta}(y)=C\hat{\beta}(y)\\
%\E(d-\hat{\delta})(d-\hat{\delta})'=C\E(b-\hat{\beta})(b-\hat{\beta})'C'\end{array}$$

\begin{imp} \label{8-c2}%\textbf{Следствие 3}\\
Пусть заданы случайные векторы $b\in \real^k,\;y\in \real^m$, рассмотрим вектор $z\in \real^p,\; p\le m\;$,\\ $z=Cy+v$, $v$ --- неслучайный вектор, $C$ --- известная матрица. Тогда ЛООСК для $z$ будет выглядеть следующим образом:
	$$ \hat{\beta}(z)=m_b+R_{by}C'\left(CR_yC'\right)^{-1}\left(z-C_y-v\right), $$
а дисперсия ее ошибки будет иметь вид
	$$ \E(b-\hat{\beta})(b-\hat{\beta})'=R_b-R_{by}C'\left(CR_yC'\right)^{-1}CR_{by}. $$
\end{imp}
\begin{task}
	Докажите следствие \ref{8-c2}.
\end{task}

\subsubsection{Пример: $y=Ub+n$}
Заметим, что в ЛООСК вся зависимость наблюдения $y$ от неизвестного параметра $b$ ''сидит`` в $R_{yb}$. Зная эту зависимость (например, имея уравнение связи), можно придать формулам ЛООСК вид, более подходящий для данной конкретной задачи.

В качестве примера рассмотрим хорошо знакомую нам задачу: пусть
\begin{equation}\label{8-e1}
y=Ub+n,
\end{equation}
где $y\in \real^m$ --- наблюдения, $b\in \real^n$ --- оцениваемый параметр, $U\in \real^{m\times n}$ --- известная матрица. Требуется построить линейную оптимальную в среднеквадратическом смысле оценку.

\begin{theorem} \label{8-t2}%\textbf{Следствие 4.}
Пусть заданы случайные векторы $b\in \real^{k}$, $n \in \real^{m}$, причем они некоррелированны. Пусть также матрица ковариаций $R_n$ является положительно определённой. Тогда ЛООСК и дисперсия ошибки оценивания имеют следующий вид:
$$ \hat\beta(y)=m_b+R_bU'(UR_bU'+R_n)^{-1}(y-U m_b-m_n),
$$
$$
\E[(b-\hat\beta(y))(b-\hat\beta(y))']=R_b-R_bU'(UR_bU'+R_n)^{-1}UR_b.
$$
\end{theorem}
\begin{proof} %\textbf{Доказательство.}
Введем:
$$ x=
\left(
\begin{array}{rcr}
 b\\
 n
\end{array}
\right), \quad m_x= \left(
\begin{array}{rcr}
 m_b\\
 m_n
\end{array}
\right),
$$
$$
R_x= \left(
\begin{array}{rccr}
 R_b & 0\\
 0   & R_n
\end{array}
\right), \quad C= \left( U,I \right);
$$
Тогда вектора  $y$ и $b$ можно представить в виде $y=C\cdot x$ и $b=(I,0)\cdot x$ соответственно. По \textit{следствию 2} можно построить оценку:
$$
\hat\beta(y)=(I,0)\hat x(y),$$ $$ E[(b-\hat\beta(y))(b-\hat\beta(y))']=(I,0)\cdot
E[(x-\hat x(y))(x-\hat x(y))']\cdot (I,0)';
$$
Далее, воспользуемся следствием \ref{8-c2}. Возьмём в качестве
параметров $z=y$, $v=0$, $y=x$, $b=x$,
тогда:
$$
\hat x(y)=m_x+R_{x}\cdot C'(CR_x C')^{-1}\cdot(y-C m_x),
$$
$$
E[(x-\hat x(y))(x-\hat x(y))']=R_x-R_xC'(CR_x C')^{-1}CR_x;
$$
Далее, выполнив подстановку $m_x$, $R_x$ и $C$ в полученные
выражения, получим дока\-зы\-ваемое утверждение (показать самим).
%\rightline {\bf ч.т.д.}\\
\end{proof}

Следующая лемма показывает, как при построении ЛООСК учитывается априорная информация (т.е. доступная до проведения наблюдений --- м.о. и матрицы ковариаций) и апостериорная (т.е. результаты измерений): в \eqref{8-e2} первое слагаемое отвечает априорной оценке, а второе --- апостериорному уточнению (поправке).

\begin{theorem} %{\bf Замечание 1.}
 Если в условиях теоремы \ref{8-t1} $R_b$ --- положительно определённая\footnote{В гауссовском случае достаточно требовать неотрицательную определенность}, то оценки, полученные в теореме \ref{8-t2}, можно переписать в виде:
\begin{equation} \label{8-e2}
\hat\beta(y) =m_b + (R_b^{-1} + U'R_n^{-1}U)^{-1}U'R_n^{-1}(y-U m_b - m_n),
\end{equation}
\begin{equation} \label{8-e3}
\E[(b-\hat\beta(y))(b-\hat\beta(y))']=(R_b^{-1}+U'R_n^{-1}U)^{-1}.
\end{equation}
\end{theorem}
\begin{proof} 
	Доказательство леммы построено на применении матричной леммы \eqref{_2_mlemma3} (выполнить его самим).
\end{proof}
 
\subsubsection{Детерминированный аналог}
Приведем теперь детерминированный аналог предыдущего утверждения.
\begin{theorem} %{\bf Утверждение 2.}
Формулы, аналогичные (\ref{8-e2})--(\ref{8-e3}) можно получить, минимизируя функционал:
$$	V(b)=||y - Ub - m_n||^{2}_{R_n^{-1}}+ ||b-m_b||^2_{R_b^{-1}}\rightarrow \min_b,	 $$
где $b$ --- неслучайный вектор.  Векторы $m_n$ и $m_b$ --- произвольны,  матрицы $R_n$ и $R_b$ --- положительно определены. 
\end{theorem}
\begin{proof} Доказательство выполнить самим. Подсказка: показать, что $V(b)$ можно представить в виде
\begin{equation}\label{DetMeaning}
V(b)= ||b-\hat\beta(y)||^2_{(R_b^{-1}+U'R_n^{-1}U)^{-1}} + \const.
\end{equation}
\end{proof}

На эту задачу можно посмотреть так. Первое слагаемое --- это ''цена промаха`` наблюдения $y$ от точки $Ub+m_n$ в метрике, порожденной матрицей $R_n^{-1}$, второе --- ''цена промаха`` точки $b$ от точки $m_b$ в метрике, порожденной матрицей $R_b^{-1}$. Если мы знаем, что ''в среднем`` шум $n$ имеет значение $m_n$, а параметр $b$ --- $m_b$,  то надо выбрать $b$ так, чтобы ''промахи`` отклонений от ''средних`` значений в соответсвующих метриках были в сумме поменьше.

С геометрической точки зрении эту задачу можно проинтерпретировать так: пусть мы априори знаем, что $m_n\in \mathcal{E}(m_n, R_n)$, $b\in \mathcal{E}(m_b,R_b)$. Пусть нам пришло измерение $y$. Требуется построить доверительный эллипсоид (множественную оценку) для $b$. 
Из формулы \eqref{DetMeaning} видно, что это будет эллипсоид с центром в ЛООСК и матрицей конфигураций, совпадающей с дисперсией ошибки ЛООСК.
